Table of contents (ToC) extraction aims to extract headings of different levels in documents to better understand the outline of the contents, which can be widely used for document understanding and information retrieval. Existing works often use hand-crafted features and predefined rule-based functions to detect headings and resolve the hierarchical relationship between headings. Both the benchmark and research based on deep learning are still limited. Accordingly, in this paper, we first introduce a standard dataset, HierDoc, including image samples from 650 documents of scientific papers with their content labels. Then we propose a novel end-to-end model by using the multimodal tree decoder (MTD) for ToC as a benchmark for HierDoc. The MTD model is mainly composed of three parts, namely encoder, classifier, and decoder. The encoder fuses the multimodality features of vision, text, and layout information for each entity of the document. Then the classifier recognizes and selects the heading entities. Next, to parse the hierarchical relationship between the heading entities, a tree-structured decoder is designed. To evaluate the performance, both the metric of tree-edit-distance similarity (TEDS) and F1-Measure are adopted. Finally, our MTD approach achieves an average TEDS of 87.2% and an average F1-Measure of 88.1% on the test set of HierDoc. The code and dataset will be released at: https://github.com/Pengfei-Hu/MTD.
translated by 谷歌翻译
人脸图像通常以广泛的视觉量表出现。现有的面部表示通过组装有限系列的预定尺度的多尺度方案来追求处理量表变化的带宽。这种多弹药方案带来了推理负担,而预定义的量表不可避免地从真实数据中差异。取而代之的是,从数据中学习比例参数,并将其用于单发功能推理是一个不错的解决方案。为此,我们通过诉诸规模空间理论并实现两倍的设施来改革Conv层:1)Conv层从真实数据分布中学习一组尺度,每个数据分布都由Conv内核来实现; 2)该图层自动在适当的通道和位置上突出显示与输入模式量表及其存在相对应的位置。然后,我们通过堆叠改革层的层来实现分层尺度的关注,建立一种名为“比例尺注意Cons Neurnet网络”(\ textbf {scan-cnn})的新颖风格。我们将扫描CNN应用于面部识别任务,并推动SOTA性能的前沿。当面部图像模糊时,准确性增长更为明显。同时,作为单发方案,该推断比多弹性融合更有效。与普通CNN相比,制造了一组工具,以确保对扫描CNN进行快速训练和推理成本的零增加。
translated by 谷歌翻译
在本文中,我们研究了Micro-Video平台中的对象效果建议的新主题,这对于许多实际应用(例如广告插入)来说是一项具有挑战性但重要的任务。为了避免引入由图像框架直接学习视频内容引起的背景偏见的问题,我们建议利用3D人类姿势中隐藏的有意义的肢体语言进行推荐。为此,在这项工作中,引入了一种新型的人类姿势驱动的对象效应建议网络称为poserec。 Poserec利用了3D人姿势检测的优势,并从多框架3D人姿势中学习信息进行视频项目注册,从而导致高质量的对象效应建议性能。此外,为了解决对象效应建议中存在的固有的歧义和稀疏性问题,我们进一步提出了一种新颖的物品感知的隐性原型学习模块,并提供了一种新颖的姿势感知的托管性托管性硬性阴性挖掘模块,以更好地学习姿势 - 项目。更重要的是,为了为新研究主题进行基准方法,我们构建了一个新数据集,用于对象效果建议,名为Pose-Obe。对姿势攻击的广泛实验表明,我们的方法比强基础可以取得更高的性能。
translated by 谷歌翻译
增强学习算法需要大量样品;这通常会限制他们的现实应用程序在简单的任务上。在多代理任务中,这种挑战更为出色,因为操作的每个步骤都需要进行沟通,转移或资源。这项工作旨在通过基于模型的学习来提高多代理控制的数据效率。我们考虑了代理商合作并仅与邻居进行当地交流的网络系统,并提出了基于模型的政策优化框架(DMPO)。在我们的方法中,每个代理都会学习一个动态模型,以预测未来的状态并通过通信广播其预测,然后在模型推出下训练策略。为了减轻模型生成数据的偏见,我们限制了用于产生近视推出的模型使用量,从而减少了模型生成的复合误差。为了使策略更新的独立性有关,我们引入了扩展的价值函数,理论上证明了由此产生的策略梯度是与真实策略梯度的紧密近似。我们在几个智能运输系统的基准上评估了我们的算法,这些智能运输系统是连接的自动驾驶汽车控制任务(FLOW和CACC)和自适应交通信号控制(ATSC)。经验结果表明,我们的方法可以实现卓越的数据效率,并使用真实模型匹配无模型方法的性能。
translated by 谷歌翻译
文档检索使用户能够准确,快速找到所需的文档。为了满足检索效率的要求,普遍的深神经方法采用了基于表示的匹配范式,该范式通过离线预先存储文档表示节省了在线匹配时间。但是,上述范式会消耗庞大的本地存储空间,尤其是将文档存储为单词元素表示时。为了解决这个问题,我们提出了TGTR,这是一种基于主题的文本表示模型,用于文档检索。遵循基于表示的匹配范式,TGTR将文档表示脱机存储以确保检索效率,而通过使用新颖的主题格式表示,而不是传统的单词元素,则大大降低了存储要求。实验结果表明,与单词粒度的基线相比,TGTR在检索准确性方面始终在TREC CAR和MS MARCO上竞争,但其所需的存储空间的少于1/10。此外,TGTR绝大多数在检索准确性方面超过了全球粒度的基线。
translated by 谷歌翻译
CVPR中的农业视觉挑战是全球研究人员打破计算机视觉和农业部门之间边界的最著名和竞争性挑战之一,目的是从空中图像中识别农业模式。在本文中,我们建议解决CVPR 2022的第三次农业视觉挑战的解决方案。我们利用数据预处理方案和几种基于变压器的模型以及数据增强技术来达到0.582的MIOU,以实现第二名在这个挑战中。
translated by 谷歌翻译
组成零射击学习(CZSL)旨在使用从训练集中的属性对象组成中学到的知识来识别新的构图。先前的作品主要将图像和组合物投影到共同的嵌入空间中,以衡量其兼容性得分。但是,属性和对象都共享上面学到的视觉表示,导致模型利用虚假的相关性和对可见对的偏见。取而代之的是,我们重新考虑CZSL作为分布的概括问题。如果将对象视为域,我们可以学习对象不变的功能,以识别任何对象附加的属性。同样,当识别具有属性为域的对象时,还可以学习属性不变的功能。具体而言,我们提出了一个不变的特征学习框架,以在表示和梯度级别上对齐不同的域,以捕获与任务相关的内在特征。对两个CZSL基准测试的实验表明,所提出的方法显着优于先前的最新方法。
translated by 谷歌翻译
端到端语音翻译(E2E-ST)由于其误差传播的潜力,较低的延迟和较少的参数而受到了越来越多的关注。但是,基于神经的方法对该任务的有效性受到可用培训语料库的严重限制,尤其是对于较少或不存在的域中三重障碍培训数据的领域适应性。在本文中,我们提出了一种新型的非参数方法,该方法利用特定于域的文本翻译语料库来实现E2E-ST系统的域适应性。为此,我们首先将一个附加的编码器纳入预先训练的E2E-ST模型中,以实现文本翻译建模,然后通过减少可用三重态训练数据中的通讯表示不匹配来统一解码器的输出表示形式,以实现文本和语音翻译任务。在域适应过程中,引入了K-Nearest-neighbor(KNN)分类器,以使用由域特异性文本翻译语料库构建的外部数据存储器生成最终的翻译分布,而采用通用输出表示来执行相似性搜索。 Europarl-St基准的实验表明,仅涉及内域文本翻译数据时,我们提出的方法在所有翻译方向上平均将基线显着提高了基线,即使表现出强大的强度内域微调方法。
translated by 谷歌翻译
良好的善解人意对话系统应首先跟踪并理解用户的情绪,然后以适当的情感回复。但是,目前对此任务的方法要么集中于提高对用户情绪的理解或提出更好的反应策略,而且很少有作品同时考虑这两种工作。我们的工作试图填补这一空缺。受到任务导向对话系统的启发,我们提出了一种具有情感感知对话管理的新颖善解人意的响应生成模型。情绪感知对话管理包含两个部分:(1)情绪状态跟踪保持当前用户的情绪状态,(2)善解人意的对话策略选择预测目标情绪和用户的意图,基于情绪状态跟踪的结果。然后,预测信息用于指导响应的产生。实验结果表明,与自动评估和人类评估下的几个基准相比,动态管理不同的信息可以帮助模型产生更多的移情反应。
translated by 谷歌翻译
点云降级旨在从噪音和异常值损坏的原始观察结果中恢复清洁点云,同时保留细粒细节。我们提出了一种新型的基于深度学习的DeNoising模型,该模型结合了正常的流量和噪声解散技术,以实现高降解精度。与提取点云特征以进行点校正的现有作品不同,我们从分布学习和特征分离的角度制定了denoising过程。通过将嘈杂的点云视为清洁点和噪声的联合分布,可以从将噪声对应物从潜在点表示中解​​散出来,而欧几里得和潜在空间之间的映射是通过标准化流量来建模的。我们评估了具有各种噪声设置的合成3D模型和现实世界数据集的方法。定性和定量结果表明,我们的方法表现优于先前的最先进的基于深度学习的方法。
translated by 谷歌翻译